Tesseract詳細配置
對於 OCR 而言,能夠靈活地選擇和提取文件中的文字至關重要。 由於執行 OCR 的成本很高,因此需要能夠控制特定文件的效能和使用方法,以確保使用 OCR 的應用程式具有可擴展性和高效性。
IronTesseract 為開發者提供了不同的屬性和選項,供他們進行調整。 例如,如果您想要將某些字元列入黑名單,或者還想讀取文件中的條碼,甚至指定 OCR 引擎如何讀取頁面以掃描潛在的文字區塊,所有這些以及更多功能都可以使用 IronTesseract 類別來實現。
- `var ocrTesseract = new IronTesseract();`
- `ocrTesseract.Language = OcrLanguage.EnglishBest;`
- `ocrTesseract.Configuration.ReadBarCodes = false;`
- `ocrTesseract.Configuration.BlackListCharacters = "`ë|^";`
- `ocrTesseract.Configuration.TesseractVariables["tessedit_parallelize"] = false;`
初始化 IronTesseract 類別之後,有一些重要的選項可以立即使用,我們想要對其進行修改。 首先要配置的屬性是 Language。 預設語言為英語; 但是,IronTesseract 支援最多 125 種語言,並且使用 UseMultipleLanguages 方法甚至可以支援多種語言。 更多詳情請參考這裡。
我們要配置的第二個屬性是 TesseractConfiguration 類別。 透過此類,我們可以修改 Tesseract 引擎掃描文件中潛在文字區塊的方式。
- 首先,我們透過將語言指派給
OcrLanguage.EnglishBest來修改 Tesseract 引擎的語言。 該變體結合了 LSTM 和 OEM,它們都是使用 OCR 的形狀識別策略; 結合這兩種策略可以使 OCR 產生更準確的結果。 - 之後,我們將
ReadBarCodes設為 false,以避免在 OCR 過程中讀取條碼。
我們也可以透過將文件中的某些字元列入黑名單,進一步自訂和指定要提取的字元; 在這個例子中,我們將某些字元列入黑名單,以避免提取包含反引號、重音符號或插入符號的文字。 最後,我們將 TesseractVariables["tessedit_parallelize"] 設為 false,暫時停用並行處理。 最後這個功能非常強大,因為它直接與 Tesseract 引擎互動。以下是 TesseractVariables 的完整列表,開發者可以透過這些選項進一步自訂 Tesseract 引擎在執行 OCR 時的行為。

